3.3 估计平均因果效应的双重稳健或增强IPW估计量

#IPW #PropensityScore #DoublyRobust #OutcomeRegression #ObservationalStudy

在可忽略性 $Z ⊥ ⊥ {Y (1), Y (0)}$ 和重合度 $0 < e (X) < 1$ 下, 3.2 观察性实验中的倾向得分给了 $τ = E [Y (1) - Y (0)]$ 的两个公式. 首先 $\begin{matrix} (0.1) & τ = E [μ_{1} (X)] - E [μ_{0} (X)], \end{matrix}$ 这里 $\begin{aligned} μ_{1} (X) & = E [Y (1) | X] = E [Y | Z = 1, X], \\ μ_{0} (X) & = E [Y (0) | X] = E [Y | Z = 0, X] \end{aligned}$ 是实验/对照组下结果的条件期望.
其次是 IPW $\begin{matrix} (0.2) & τ = E [\frac{Z Y}{e (X)}] - E [\frac{(1 - Z) Y}{1 - e (X)}], \end{matrix}$ 这里 $e (X) = P (Z = 1 | X)$ 是倾向得分.

结果回归估计量要求在给定处理和协变量下, 为结果拟合一个模型. 如果结果模型设定正确, 估计量就是一致的.
IPW 则在给定协变量下, 为处理变量拟合一个模型. 只要倾向得分模型正确, 估计量也是一致的.
我们可以把 (0.1), (0.2) 进行多种组合, 推导出平均因果效应的不同识别公式. 这种组合只要求倾向得分/结果模型有一者被正确设定, 因此被称为 双重稳定 的.

1 双重稳健估计量

1.1 总体版本

我们为结果 $μ_{1} (X, β_{1})$ 和 $μ_{0} (X, β_{0})$ 的条件均值假定一个模型. 如果模型正确, 则 $μ_{1} (X, β_{1}) = μ_{1} (X)$ , $μ_{0} (X, β_{0}) = μ_{0} (X)$ . 我们假设一个倾向得分的模型 $e (X, α)$ , 如果正确则 $e (X, α) = e (X)$ . 实际中两个模型都有可能有错.
定义 $\begin{aligned} {\tilde{μ}}_{1}^{dr} & = E [\frac{Z {Y - μ_{1} (X, β_{1})}}{e (X, α)} + μ_{1} (X, β_{1})], \\ (1.1) & {\tilde{μ}}_{0}^{dr} & = E [\frac{(1 - Z) {Y - μ_{0} (X, β_{0})}}{1 - e (X, α)} + μ_{0} (X, β_{0})], \end{aligned}$ 也可以写成 $\begin{aligned} {\tilde{μ}}_{1}^{dr} & = E [\frac{Z Y}{e (X, α)} - \frac{Z - e (X, α)}{e (X, α)} μ_{1} (X, β_{1})], \\ (1.2) & {\tilde{μ}}_{0}^{dr} & = E [\frac{(1 - Z) Y}{1 - e (X, α)} - \frac{e (X, α) - Z}{1 - e (X, α)} μ_{0} (X, β_{0})] . \end{aligned}$
(1.1) 通过对残差进行逆倾向得分加权, 来加强回归估计量; (1.2) 通过引入填补结果 (imputed outcomes) 来增强 IPW 估计量. 因此, 双重稳健估计量也被称为 增强逆倾向得分加权估计量 (AIPW).
这个加强操作的理论作用如下:
{ #270}
aa 9
{ #23}
eaad

定理 1.1

假设可忽略性 $Z ⊥ ⊥ {Y (1), Y (0)} | X$ 和重合度 $0 < e (X) < 1$ .

如果 $e (X, α) = e (X)$ 或 $μ_{1} (X, β_{1}) = μ_{1} (X)$ , 则 ${\tilde{μ}}_{1}^{dr} = E [Y (1)]$ .
如果 $e (X, α) = e (X)$ 或 $μ_{0} (X, β_{0}) = μ_{0} (X)$ , 则 ${\tilde{μ}}_{0}^{dr} = E [Y (0)]$ .
如果 $e (X, α) = e (X)$ 或 ${μ_{1} (X, β_{1}) = μ_{1} (X), μ_{0} (X, β_{0}) = μ_{0} (X)}$ , 则 ${\tilde{μ}}_{1}^{dr} - {\tilde{μ}}_{0}^{dr} = τ$ .

可见 ${\tilde{μ}}_{1}^{dr} - {\tilde{μ}}_{0}^{dr} = τ$ 只需要倾向得分或者结果回归模型有一个对就行, 所以是双重稳健的!

证明

我们只证 $μ_{1} = E [Y (1)]$ 的结果。我们有 $\begin{aligned} {\tilde{μ}}_{1}^{dr} - E [Y (1)] \\ (定义) & = & E [\frac{Z {Y (1) - μ_{1} (X, β_{1})}}{e (X, α)} - {Y (1) - μ_{1} (X, β_{1})}] \\ = & E [\frac{Z - e (X, α)}{e (X, α)} {Y (1) - μ_{1} (X, β_{1})}] \\ (塔式法则) & = & E (E [\frac{Z - e (X, α)}{e (X, α)} {Y (1) - μ_{1} (X, β_{1})} | X]) \\ (可忽略性) & = & E [E {\frac{Z - e (X, α)}{e (X, α)} | X} \cdot E {Y (1) - μ_{1} (X, β_{1}) | X}] \\ = & E [\frac{e (X) - e (X, α)}{e (X, α)} \cdot {μ_{1} (X) - μ_{1} (X, β_{1})}] . \end{aligned}$ 则如果 $e (X, α) = e (X)$ 或者 $μ_{1} (X) = μ_{1} (X, β_{1})$ , 就有 ${\tilde{μ}}_{1}^{dr} = E [Y (1)]$ .

1.2 样本版本

平均因果效应的双重稳定估计量

基于 $(X_{i}, Z_{i}, Y_{i})_{i = 1}^{n}$ , 我们可以按如下步骤得到一个双重稳定的 $τ$ 的估计量 ^[1]:

得到拟合的倾向得分 $e (X_{i}, \hat{α})$ ;
得到拟合的结果均值 $μ_{1} (X_{i}, {\hat{β}}_{1})$ 和 $μ_{0} (X_{i}, {\hat{β}}_{0})$ ;
构造 ${\hat{τ}}^{dr} = {\hat{μ}}_{1}^{dr} - {\hat{μ}}_{0}^{dr}$ , 这里 $\begin{aligned} {\hat{μ}}_{1}^{dr} & = \frac{1}{n} \sum_{i = 1}^{n} [\frac{Z_{i} {Y_{i} - μ_{1} (X_{i}, {\hat{β}}_{1})}}{e (X_{i}, \hat{α})} + μ_{1} (X_{i}, {\hat{β}}_{1})], \\ {\hat{μ}}_{0}^{dr} & = \frac{1}{n} \sum_{i = 1}^{n} [\frac{(1 - Z_{i}) {Y_{i} - μ_{0} (X_{i}, {\hat{β}}_{0})}}{1 - e (X_{i}, \hat{α})} + μ_{0} (X_{i}, {\hat{β}}_{0})] \end{aligned}$

根据定义, 我们也可以改写为 ${\hat{τ}}^{dr} = {\hat{τ}}^{reg} + \frac{1}{n} \sum_{i = 1}^{n} \frac{Z_{i} {Y_{i} - μ_{1} (X_{i}, {\hat{β}}_{1})}}{e (X_{i}, \hat{α})} - \frac{1}{n} \sum_{i = 1}^{n} \frac{(1 - Z_{i}) {Y_{i} - μ_{0} (X_{i}, {\hat{β}}_{0})}}{1 - e (X_{i}, \hat{α})} .$ 和 (1.2) 对应, 我们也能写成 ${\hat{τ}}^{dr} = {\hat{τ}}^{ipw} - \frac{1}{n} \sum_{i = 1}^{n} \frac{Z_{i} - e (X_{i}, \hat{α})}{e (X_{i}, \hat{α})} μ_{1} (X_{i}, {\hat{β}}_{1}) + \frac{1}{n} \sum_{i = 1}^{n} \frac{e (X_{i}, \hat{α}) - Z_{i}}{1 - e (X_{i}, \hat{α})} μ_{0} (X_{i}, {\hat{β}}_{0}) .$

2 双重稳健估计量的更多想法和理论

我们接下来提供两种直观的角度来理解 (1.1). 这里只关心 $E [Y (1)]$ 的估计, 因为 $E [Y (0)]$ 的是类似的.

2.1 减小 IPW 估计量的方差

$μ_{1}$ 的 IPW 估计量基于 $μ_{1} = E [\frac{Z Y}{e (X)}]$ . 它完全忽视了 $Y$ 的结果模型. 虽然它可以不假设任何结果模型, 但是如果协变量对于结果有预测性, 则基于可行模型的残差, 通常比结果有一个更小的方差, 即使这个可行的模型是错的. 假设有一个可能错误的模型 $μ_{1} (X, β_{1})$ , 有一个显然的分解 $μ_{1} = E [Y (1)] = E [Y (1) - μ_{1} (X, β_{1})] + E [μ_{1} (X, β_{1})] .$ 如果在上式的第一项 $Y (1) - μ_{1} (X, β_{1})$ 中用 IPW 作为实验处理的 "假的潜在结果", 我们能改写为 $\begin{aligned} μ_{1} & = E [\frac{Z {Y - μ_{1} (X, β_{1})}}{e (X)}] + E [μ_{1} (X, β_{1})] \\ = E [\frac{Z {Y - μ_{1} (X, β_{1})}}{e (X)} + μ_{1} (X, β_{1})], \end{aligned}$ 这是成立的, 如果倾向得分模型正确 (无需假设结果模型正确).

2.2 减少结果回归模型的偏差

同样地我们看一个结果回归估计量 ${\tilde{μ}}_{1} = E [μ_{1} (X, β_{1})]$ . 它的偏差是 $E [μ_{1} (X, β_{1}) - Y (1)]$ , 可以用 IPW 估计量 $B = E [\frac{Z {μ_{1} (X, β_{1}) - Y}}{e (X)}]$ 来估计, 如果倾向得分模型正确. 所以去掉偏差的版本就是 ${\tilde{μ}}_{1} - B$ .

3 额外的说明

回顾定理1.1的证明. 双重稳健的关键是这个乘积 ${\tilde{μ}}_{1}^{dr} - E [Y (1)] = E [\frac{e (X) - e (X, α)}{e (X, α)} \cdot {μ_{1} (X) - μ_{1} (X, β_{1})}] .$ 这一结构是"双重稳健"的, 但也可能是"双重脆弱"的. 如果两个模型都错误, 那乘积就会把错误放大.
不过总的来说, 双重稳健估计量一直是因果推断的标准策略.
最近也有人提出 双重机器学习 (DML), 来将 Logistic 回归、线性回归估计 $e (X), μ (X)$ 替换掉.

之前我们不强调正确的模型中的参数, 所以可以简写 $\hat{e} (X_{i})$ 代替 $e (X_{i}, \hat{α})$ , 以及 ${\hat{μ}}_{z} (X_{i})$ 代替 $μ_{z} (X_{i}, {\hat{β}}_{1})$ . ↩︎